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一 种 邻 域 自 适应 半 上 监督 局 部 Fisher 判别 分 析 算 法 
杜 ” 伟 ， 房 立 清 ， 齐 子 元 


(军械 工程 学 院 火炮 工程 系 , 石家庄 050003) 


摘 要 : 针对 利用 局 部 化 思想 解决 多 模 数 据 的 判别 分 析 问 题 时 ， 根 据 经 验 对 局 部 邻 域 大 小 进行 全 局 统一 设 定 无 法 体现 
局 部 几何 结构 的 差异 性 的 不 足 , 提出 一 种 邻 域 自 适 应 半 监 督 局 部 Fisher 判别 分 析 (neighborhood adaptive semi-supervised 
local Fisher discriminant analysis，NA-SELF) 算法 。 该 算法 在 半 监 督 局 部 Fisher 判别 分 析 算 法 的 基础 上 ， 结 合 马 氏 距 离 
和 余 统 相似 度 确 定 初始 近邻 数 ， 并 根据 样本 空间 概率 密度 估计 调整 近邻 数 。 通 过 人 工 数据 集 和 5 组 UCI 标准 数据 集 对 
该 算法 的 特征 降 维 性 能 进行 验证 ， 并 与 典型 的 维 数 约 简 算 法 和 采用 传统 上 近邻 方法 的 判别 分 析 算 法 进行 比较 ， 实 验 结 
果 表 明 该 算法 具备 更 高 的 有 效 性 。 
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Neighborhood adaptive semi-supervised local Fisher discriminant analysis algorithm 


Du Wei, Fang Liqing, Qi Ziyuan 
(Dept. of Artillery Engineering, Ordnance Engineering College, Sijiazhuang 050003, China) 


Abstract: For the discriminant analysis of multimodal data, the idea of localization can hardly reflect the difference of local 


geometric structure according to the global setting of local neighborhood by experience. Aiming at this problem, this paper 


proposed a neighborhood adaptive semi-supervised local Fisher discriminant analysis (NA-SELF) algorithm. The new algorithm 


based on the semi-supervised local Fisher discriminant analysis algorithm, obtained the initial neighborhood by combining the 


Mahalanobis distance and cosine similarity, and adjusted the number of neighbors according to the probability density estimation 
of sample space. The performance of feature dimensionality reduction using the algorithm was verified by the synthetic datasets 


and five UCI standard datasets. Compared with several typical dimensionality reduction algorithms and the discriminant analysis 


algorithm using the traditional k-nearest neighbor method, the experimental results show that the proposed algorithm has higher 
effectiveness. 
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LDA) 外 和 属于 无 监督 降 维 的 主 成 分 分 析 (principle component 
9 | analysis，PCA) 是 典型 的 线性 降 维 方法 。 然 而 ， 无 监督 降 维 
随 着 信息 技术 的 发 展 ， 许 多 研究 和 应 用 领域 需要 处 理 的 数 方法 忽略 了 类 别 标签 的 指导 ， 有 监督 降 维 方法 需要 大 量 的 带 标 
据 往 往 存 在 维 数 高 、 含 有 大 量 见 余 和 泥 欠 信息 等 问题 。 为 避免 。 签 样 本 ， 在 工程 实践 中 往往 成 本 过 高 。 半 监督 降 维 方法 综合 利 
陷入 “ 维 数 灾难 ”"， 提 高 效率 并 充分 挖掘 原始 数据 的 本 质 信 息 ， 用 无 标签 数据 和 少量 有 标签 数据 ， 取 得 了 很 好 的 效果 广 9。 为 解 
需要 对 数据 进行 有 效 的 维 数 约 简 。 降 维 技术 作为 数据 预 处 理 的 决 线性 判别 分 析 在 多 模 数 据 情况 下 评价 能 力 差 的 缺陷 ， 许 多 学 


ll 


重要 手段 ， 在 图 像 处 理 、 模 式 识别 和 计算 机 视觉 等 领域 得 到 了 者 引入 局 部 化 的 思想 ,希望 用 局 部 信息 来 挖掘 数据 的 流 形 结构 ， 
广泛 应 用 。 例如 局 部 保持 投影 (locality preserving projection，LPP) 1、 局 
降 维 算法 通过 采用 线性 变换 或 非 线 性 变换 ， 使 数据 从 高 维 部 Fisher 判别 分 析 (local Fisher discrimination analysis, LFDA) 


I 


空间 映射 到 低 维 空间 后 尽量 保持 结构 特征 信息 。 降 维 算法 按照 [I 和 边界 Fisher 判别 分 析 (marginal Fisher analysis, MFA ) 中 等 。 
样本 中 是 否 含有 类 别 标签 分 为 有 监督 降 维和 无 监督 降 维 帆 。 属 现 有 的 算法 在 构建 邻 域 时 往往 是 根据 经 验 进行 全 局 统一 设 定 ， 
于 有 监督 降 维 的 线性 判别 分 析 (linear discrimination analysis， 忽略 了 数据 局 部 几何 结构 的 差异 性 ， 从 而 影响 低 维 投影 向 量 的 


如 
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类 别 可 分 性 。 因 此 ， 根 据 数据 点 之 间 的 距离 度量 自动 确定 邻 域 
大 小 ， 成 为 一 个 值得 研究 的 问题 09。 
基于 以 上 分 析 ， 本 文 提出 一 种 邻 域 自 适应 半 监 督 局 部 
Fisher 判别 分 析 (neighborhood adaptive semi-supervised local 
Fisher discriminant analysis, NA-SELF) 算法。 该 算法 结合 距离 
度量 和 角度 相似 性 度量 构建 邻 域 ， 并 利用 样本 空间 概率 密度 估 
计 自 适应 调整 近邻 数 ， 有 效 克 服 了 SELF 算法 使 用 全 局 统一 邻 
域 参数 的 不 足 。 最 后 , 将 运用 NA-SELF 算法 得 到 的 低 维 向 量 输 
入 支持 向 量 机 (support vector machine, SVM) 进行 识别 ， 验 证 
了 NA-SELF 算法 的 有 效 性 。 


1 ” 半 监 督 局 部 Fisher 判别 分 析 


ull 


Sugiyama 等 人 0 将 LFDA 和 PCA 有 效 融 合 ， 提 出 一 种 半 
判别 分 析 (semi-supervised local Fisher 


监督 局 部 Fisher 
述 样本 局 部 信 


ChinaXiv 合 作 有 
柱 ， 伟 ， 等 : 一 种 邻 域 自 适 应 半 监 督 局 部 Fisher 判别 分 
由 式 (1) ~ (3)， 定 义 SELF 的 类 间 散 度 和 矩阵 和 类 内 散 度 
矩阵: 
S” =( -5)Sw +pBS" (7) 


S™*=(1-pS™ +p, (8) 
其 中 : 权 系 数 pe[0,1] ，1 为 标准 矩阵 。 权 系数 8 使 算法 兼 
LFDA 和 PCA 的 特性 ， 通 过 调节 其 值 大 小 , 增加 了 算法 的 灵活 
性 。 显 然 ， 当 5 =1 时 SELF 等 价 于 PCA， 当 5 =0 时 则 等 价 于 
LFDA。 寻找 最 佳 的 投影 转换 矩阵 了， 即 求解 如 下 最 大 化 目标 函 
数 问题 : 


T=arg max[1rT”"S™T(T"S™7)"] (9) 


式 (9) 转换 矩阵 的 求解 等 效 于 式 〈10) 的 广义 特征 向 量 求 
取 问 题 。 


Swa =AS™"a (10) 
则 转换 矩阵 7 由 式 (10) 的 前 z 个 最 大 广义 特征 值 对 应 的 


discriminant analysis, SELF) 算法 。LFDA 通过 描 ; 

息 提 高 了 处 理 多 模 态 数 据 的 能 力 ， 但 在 有 标签 样本 不 足 时 容易 
陷入 过 学 习 , 而 PCA 能 够 利用 无 标签 样本 获取 全 局 分 布 。 SELF 
算法 结合 二 者 优势 ， 兼 具 LFDA 利用 类 别 信息 指导 降 维 的 能 
和 了 PCA 无 类 别 信 息 获取 全 局 分 布 的 能 

假设 给 定 样本 集 共 包含 p 维特 征 ， 


C 个 类 别 ， 记 为 


X={Xx eR?”,(i=L2,..n,..sm)} ， 其 中 有 类 别 标签 样本 
X(i=1,2,...,n")， es €{1,2,...,C}(i=1,2,...,n") 。 PCA 
的 全 局 散 度 矩 阵 定 义 为 

已 -wx —X)(X —X,) (1) 


其 中 : 权 值 W% =1/n。LFDA 的 局 部 类 间 散 度 矩 阵 gw 和 局 部 
类 内 散 度 矩阵 gow 可 定义 为 下 面 的 逐 对 形式 0 


SS 二 > (X — x )(X, 一 x) (2) 


Eg 
Sm = YW XX x) G) 


其 中 : 权 值 算 阵 Www 和 JW 定义 为 


A (dd/n-1l/n') 让 7 =/ 
wo -| 本 n n') ; | 四 
1 /7 if Lz#l, 
WE (5) 
”0 if Lz1, 
其 中 : ma, 为 第 1 e {1,2,.…,C}(i=1,2,…n) 类 样本 数 ; 相似 矩阵 4 


的 第 Gi, 7) 个 元 素 A, e[0,1]} 于 描述 两 个 样本 x 和 x 之 间 的 相 


似 性 , 且 A ,有 高 斯 相似 度 、k 近邻 相似 度 和 局 部 尺度 相似 度 等 
多 种 定义 形式 时， 如 
A,= emt = (6) 
CO 


其 中 ，c 为 样本 点 x 的 局 部 尺度 , 定义 为 0 =|x -xzo| ，xe 为 
x 的 第 大 个 最 近邻 点 ,文献 [8] 建 议 设置 全 局 参数 上 -7 。 事实 上 ， 
式 (6) 体现 了 样本 点 之 间 的 局 部 近邻 关系 ， 能 够 根据 具有 相同 
类 别 标签 的 数据 对 的 距离 远近 对 权 值 进 行 调整。 


广义 特征 向 量 (a ,a,,.…,a,) 组 成 。 


2 ” 邻 域 自 适应 半 监 督 局 部 Fisher 判别 分 析 


传统 的 近邻 数 设置 方法 一 般 分 为 K 近邻 法 和 e 近邻 法 两 
种 。SELF 算法 在 计算 局 部 尺度 相似 甜 阵 A 时 采用 大 近邻 法 构 
建 邻 域 ， 且 根据 经 验 设置 全 局 统一 参数 。 然 而 ， 实 际 采 和 集 到 的 
样本 数据 在 局 部 几何 结构 上 往往 存在 差异 性 ， 因 此 不 同 的 样本 
在 低 维 映射 的 过 程 中 所 需要 的 近邻 样本 集 不 同 ， 对 算法 的 性 能 
产生 的 影响 也 不 同 。 为 解决 这 一 问题 ， 本 文采 用 邻 域 参数 自 适 
应 调整 的 方法 ， 在 提高 算法 鲁 棒 性 的 同时 能 提高 低 维特 征 的 识 
别 效果 。 
2.1 相似 性 度量 

SELF 算法 通过 计算 样本 点 与 其 第 个 最 近邻 点 的 欧式 距 
离 来 描述 局 部 尺度 ， 但 欧式 距离 只 能 度量 样本 间 的 空间 位 置 ， 
不 能 体现 样本 整体 的 集合 结构 (3。 而 马 氏 距离 不 受 特征 量 纲 选 
择 的 影响 09, 余弦 相似 度 03 利 用 矢量 夹 角 的 余弦 来 度量 相似 性 。 
因此 ， 为 充分 反映 样本 间 的 相似 性 ， 文 中 将 余弦 相似 度 和 马 氏 
距离 相 结合 ， 即 


(11) 


d, 0 x ; (1,7 =1,2,...,7) 


其 中 : qd” 和 a 且 
dG-d)/2s[0]。 式 (11) 融合 了 样本 点 间 的 空间 位 置 和 夹 角 
信息 ， 相 当 于 为 马 氏 距离 附加 了 取 值 范围 为 [0,1] 的 影响 因子 ， 
两 向 量 夹 角 越 小 则 影响 因子 越 小 ，4, , 越 小 。 

基于 上 述 融 合 马 氏 距离 和 余弦 相似 度 反映 数据 分 布 方面 的 
优势 ， 将 SELF 算法 中 的 相似 矩阵 元 素描 述 如 下 : 


eRe 
其 中 :将 x 及 其 第 x 个 最 近邻 点 x 中 代入 式 (11) 获得 局 部 尺度 
所 有 样本 的 相似 系数 均值 M, 确定 初始 近 


CO。 上 
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M,- (a) /1n， 相似 系数 a，=exp(-d /07)，o 为 所 有 样本 


之 间距 离 的 均值 。 若 相似 系数 a ,大 于 M,， 则 x 是 x 的 近邻 样 


本 。 显 然 ， 通过 该 方法 得 到 的 每 一 个 样本 的 近邻 数 可 能 是 不 
相等 的 。 
2.2” 邻 域 参 数 自 适应 调整 

在 构建 邻 域 时 ， 特 征 相 似 的 样本 分 布 往往 较为 密集 ， 而 相 
DM 若 能 够 根据 局 部 区 域 样本 点 的 
概率 密度 自 适 应 地 调整 近邻 数 ， 则 降 维 得 到 的 低 维 特征 更 能 
反映 原始 数据 的 本 质 结构 。Parzen 窗 概率 密度 估计 [4 是 一 种 非 
参数 概率 密度 估计 方法 ， 它 不 需要 对 概率 密度 函数 形式 作出 假 


设 , 而 是 由 
近邻 数 进行 自 适 


数据 自身 信 
度 估计 用 于 邻 
应 调整 。 


假设 pr 是 包含 数据 集 X ={ 


数据 点 x (i=1,2,.…， 


p(X)= 


其 中 : y =? 为 窗 体 体积 ， 了 有 h 为 窗 体 宽 


N), Parzen € 


mg 


.,X,} 的 思维 


XX 


2 


a 


fl 


度 ，d(X,X,) 为 根据 式 (11) 计算 的 x 与 X 的 距离 ， 


函数 ， 且 满足 g(x) > 0， 4codr=0 a 


D3 


数据 点 x 的 初始 


p(X)= 


窗 函数 选择 平滑 性 较 好 的 正 


由 p(x) 可 得 到 


态 窗 函数 [15]， 


5=[2, PON/N, 


图 和 葛 有 = 
邻 数 。 则 数据 点 x 的 邻 域 概率 密度 为 


息 估 计 出 总 体 概率 密度 。 因此 , 将 Parzen 
或 构建 ， 对 相似 度 均 值 M 确定 的 初始 


空间 ， 对 于 
的 概率 密度 估计 式 为 


(13) 


I 


bo 为 窗 


天， 大 为 


1 1 

1 14 

Nk? i 的 人 

数据 集 所 有 样本 的 平均 邻 域 概 率 密 度 
熏 过 下 式 调整 邻 域 参数 大 : 


aXiv 合 作 期 局 


Ch 
柱 信 ， 等 :一 机 外 坟 自 和 在 了 人 


b) 由 Parzen 窗 概率 密度 估计 计算 样本 的 邻 域 概率 密度 
p(X) ,并 根据 式 (15 ) 调 整 邻 域 参 数 k ， 从 而 构造 相似 矩阵 4 ， 
代入 式 (4) (5) 得 到 权 值 矩阵 W% 和 Ww ， 进 而 得 到 局 部 类 
间 散 度 和 矩阵 Sw 和 局 部 类 内 散 度 矩阵 Sw ; 
c) 根据 式 (10) 求解 前 4g 个 最 大 广义 特征 值 对 应 的 广义 特 
a, ， 即 为 投影 转换 矩阵 T ， 从 而 可 得 低 维 空间 


Sp 


征 向 量 a ,a,,.…， 


特征 y-TrX。 
2.4 算法 时 间 复 杂 度 分 析 
文中 所 提 NA-SELF 算法 与 原始 算法 的 时 间 复 杂 度 差异 主 
要 体现 在 NA-SELF 算法 流程 的 步骤 a) b〉 中 ， 即 计算 相似 矩 
阵 以 及 对 邻 域 参数 进行 自 适 应 调整 。 假 设 数据 样本 的 总 数 为 N ， 
原始 特征 维 数 为 p ， 则 由 式 (11) 计算 余弦 相似 度 和 马 氏 距离 
的 时 间 复杂 度 为 OC0DN?) ; 由 式 (12 ) 重新 计算 相似 度 矩 阵 时 ， 
确定 初始 近邻 数 的 时 间 复 杂 度 为 OOV) : 利用 式 〈14) (15) 计 
算数 据点 的 邻 域 概率 密度 和 调整 邻 域 参数 的 时 间 复 杂 度 均 为 
O(N) 。 设 原始 SELF 算法 在 整个 流程 中 的 时 间 复 杂 度 为 
O(SELF) ， 则 经 过 化 简 后 可 得 NA-SELF 算法 的 时 间 复 杂 度 为 
O(NA- SELF)=0(SELF)+ O(DN’) (16) 
根据 式 (16) 可 知 ， 改 进 算法 和 原始 算法 时 间 复 杂 度 的 差 


异 主 要 与 样本 总 数 和 原始 特征 维 数 有 关 ， 样 本 总 数 和 原始 特征 
维 数 约 多 则 时 间 复 杂 度 越 大 。 


3 ”实验 与 分 析 


人 工 数据 实验 
在 本 实验 中 ， 分 别 利用 PCA、LFDA、SELF 和 NA-SELF 
等 算法 对 二 类 人 工 数据 集 进行 降 维 ， 采 用 可 视 化 比较 实验 直观 
地 验证 降 维 算法 的 性 能 ， 算 法 采用 MATLAB R2013a 实现 。 在 
每 个 人 工 数据 实验 中 ， 由 二 元 正 态 分 布 随 机 产生 200 组 数据 ， 
每 组 数据 包含 二 类 各 100 个 无 类 别 标签 数据 和 10 个 有 类 别 标 


3.1 


二 fook 2 (15) 。 签 数 据 ， 二 类 数据 分 别 用 圆 形 和 三 角形 表示 ， 无 标签 和 有 标签 

分 别 用 空心 和 实心 表示 。 图 1~3 为 实验 ]~ 实 验 3 中 的 一 组 数据 

其 中 : floor 为 向 下 取 整 函数 。 及 不 同 算法 得 到 的 投影 方向 ， 直 线 表示 的 是 一 维 的 投影 空间 ， 
分 析 式 15) 可知 ， 当 数据 点 x 附近 数据 的 概率 密度 大 于 ”分 别 用 不 同 线 型 绘 出 。 在 每 个 人 工 数据 实验 中 将 一 组 作为 训练 
平均 值 时 , 可 自动 增 大 近邻 数 k(x)，, 使 得 距离 较 远 的 数据 对 对 样本 ， 另 一 组 作为 测试 样本 ， 先 对 测试 样本 进行 降 维 得 到 投影 
降 维 产 生 较 小 的 作用 ; 反之 , 则 可 自动 减 小 近邻 数 k(x)， 使 距 转换 矩阵 ， 再 使 用 投影 转换 矩阵 对 测试 样本 进行 降 维 。 将 低 维 
离 较 近 的 数据 对 对 降 维 产生 更 大 的 作用 ， 从 而 保持 邻 域 的 局 部 。 ”特征 输入 支持 向 量 机 进行 训练 识别 ， 共 进行 100 次 实验 ， 识 别 
结构 ， 有 利于 恢复 低 维 数据 集 的 全 局 结构 信息 。 率 的 均值 如 表 1 所 示 。 设 定 SELF 和 NA-SELF 算法 中 权 系数 


2.3” 邻 域 自 适应 半 监 督 局 部 Fisher 判别 分 析 算法 流程 


半 监 督 邻 域 自 适应 局 部 Fisher 判别 分 析 (NA-SELF) 算法 
的 具体 步 又 如 下 : 

输 入 : p 维 空 间 数据 样 本 集 
X={X eR?,(i=12,...,n',..…,n)}， 其 中 有 类 别 标签 样本 数 为 1， 
低 维 特征 空间 目标 维 数 d(q < D) 

输出 : 投影 转换 矩阵 7T ， 低 维特 征 向 量 y 。 


a) 根据 式 〈12) 计算 高 
相似 系数 均值 M, 得 到 每 个 样 


本 的 初始 近邻 数 大 ， 


空间 数据 点 间 的 相似 系数 wa ，， 


B=0.5，SELF 算法 中 近邻 数 上 =7，SVM 的 核 函 数 选用 径 向 
基 核 函数 ， 设 置 惩罚 参数 C =1， 核 函数 参数 g =1 。 
1 所 示 的 二 类 数据 集 各 有 一 个 模 态 ， 无 标签 样 


本 均值 分 


别 为 (-4,0) 和 (4,0) ， 协 方差 矩阵 为 [4,0;0,4] ， 有 标签 样本 均值 
为 (-4,0) 和 (4,-3) ， 协 方差 矩阵 为 二 阶 单位 阵 ， 显 然 正 确 的 投 


影 方向 为 水 平方 向 。 实 验 结果 显示 ，PCA 和 NA-SELF 得 到 了 
较 好 的 投影 方向 ，LFDA 受 偏 下 的 有 标签 样本 的 影响 ， 导 致 投 
影 方向 偏差 较 大 ， 由 于 SELF 同时 利用 了 有 标签 样本 和 无 标签 
样本 ， 因 此 投影 方向 位 于 PCA 和 LFDA 之 间 。 
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图 1 实验 1 的 一 组 数据 
图 2 实验 2 的 一 组 数据 
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表 1 各 种 算法 的 平均 识别 准确 率 (%) 
和 法 实验 1 实验 2 实验 3 平均 值 
PCA 96.82 54.96 54.02 68.60 
LFDA 87.98 67.71 62.43 72.71 
SELF 92.90 64.46 58.84 72.01 
NA-SELF 96.34 90.44 91.S1 92.76 
图 2 所 示 的 二 类 数据 集 分 别 有 一 个 模 态 和 两 个 模 态 ， 中 间 
一 类 数据 的 均值 为 (0,0)， 两 侧 一 类 数据 的 均值 分 别 为 (-4,0) 和 


(4.0) ,无 标签 样本 的 协 方差 抵 


E 阵 为 [L0;0,10] ， 有 标签 样本 的 均 


值 和 协 方差 矩阵 与 无 标签 村 
平方 向 。NA-SELF 算法 得 到 了 较 好 的 投影 方向 ， 
使 数据 身 
距离 平方 和 较 大 的 方向 ， 因 


向 投影 。 


本 相同 ， 显 然 了 


E 确 的 投影 


方向 为 水 
而 PCA 选择 


方差 最 大 的 投影 方向 ，LFDA 选择 投影 后 异类 样本 的 
此 PCA 和 LFDA 会 选择 向 垂直 方 


杜 


伟 ， 


如 昌 
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aXivV 合 作 其 


3 所 示 的 二 类 数据 集 各 有 两 个 模 态 ， 无 标签 样本 均值 分 


别 为 (-8,4) (8,4) 和 (-8,-4) (8,-4)， 协 方差 矩阵 为 [2， 


0;0,2] ， 


标签 样 
显然 正 


本 均值 与 无 标签 样本 相同 ， 


协 方 差 矩 阵 为 二 阶 单位 阵 ， 


确 的 投影 方向 为 垂 


直方 向 。 由 于 相同 类 别 两 模 态 样本 间 


的 距离 大 于 不 同类 别 相 


司 模 态 样本 间 的 距离 ,因此 PCA 会 选择 


水 平 的 投影 方 | 


的 选取 中 产生 较 小 各 
差 ; NA-SELF 通过 自 适 应 调整 近 
加 充分 地 反映 样 


方向 。 


从 表 1 中 可 以 看 出 ， 在 单 模 态 数 ] 
算法 的 平均 识别 准确 率 略 低 于 PCA， 而 在 具有 
验 2 和 实验 3 中 , NA-SELF 算法 比划 


E 确 率 , 而 


识别 i 


本; 


距离 较 远 的 同类 样本 在 LFDA 投影 方向 


的 作用 ， 因 此 LFDA 的 投影 方向 存在 一 定 偏 
邻 数 ， 得 到 的 相似 矩阵 能 够 更 


本 数据 的 局 部 结构 ， 因 此 能 够 得 到 较 好 的 投影 


居 的 实验 1 中，NA-SELF 


多 模 态 数据 的 实 


也 算法 得 到 了 更 高 的 平均 


昌 3 个 实验 结果 的 平均 值 也 达到 最 高 ,表明 NA- 


SELF 算法 具有 


具备 更 好 的 适用 
3.2 ”UCI 数据 实验 
从 UCI 机 器 学 习 数 据 库 中 选取 5 a 住 


简 ， 并 将 低 维 特 行 


的 UCI 数据 集 


较为 明显 的 优势 ， 在 多 模 态 数据 的 降 维 
性 。 


FE 输入 支持 向 量 机 进行 分 类 识别 。 


处 理 上 


如 表 2 所 示 。 


表 2 UCI 数据 集 信息 


数据 集 


类 别 数 ”特征 


维 数 ”训练 样本 ”测试 样本 


Ionosphere 


Wine 
Iris 
Vehicle 


Segment 


34 100 251 


2 
3 13 95 83 
3 


4 60 90 


4 18 400 446 


也 18 700 1610 


为 了 便于 对 比 , 分 别 利 


j PCA、 LFDA、 SELF 和 NA-SELF 


等 算法 进行 比较 实验 
和 NA-SELF 算法 的 参数 8 采用 5 


。 上 有 具 中 


，SELF 算法 中 近邻 数 上 -=7 ，SELF 
折 交 又 验证 从 


{0.1,0.3,0.5,0.7,0.9} 中 获得 ，SVM 的 参数 设置 与 3.1 相同 ， 训 


练 村 
配 。 


本 中 有 类 


别 标签 样 
首先 以 Wine 数据 集 的 降 维 
用 各 种 算法 将 Wine 数据 集 降 至 5 维 


前 3 个 矢量 的 


三 维 空 


分 析 图 4 可 义 
见 了 较为 严重 和 
条 维 ，| 因 此 各 个 类 别 


1，PCA 
混合 ; 


本 数 与 无 类 别 标签 样本 数 按 1:3 随机 分 
结果 为 例 进行 分 析 。 图 4 为 利 
时 ， 训 练 样本 低 维特 征集 


间 分 布 图 。 
的 降 维 效果 较 差 ， 不同 类别 的 特征 集 
LFDA 仅 利 用 少量 有 类 别 标签 的 样本 
也 存 在 一 定 程 度 的 混合 ; SELF 算法 同 


时 利用 
个 类 别 基 本 能 


试 样本 的 识别 准 


类 别 标签 样 
分 离 ; NA-SELF 采用 马 氏 距离 和 余弦 相似 度 相 
结合 的 方法 能 够 反映 样 
似 性 更 精确 ， 因 出 


可 得 到 更 好 的 降 维 效果 。 


本 和 少量 有 类 别 标签 样本 ， 降 维 后 各 


本 点 的 空间 位 置 和 来 角 信 


息 ， 得 到 的 相 


5 为 各 种 算法 随 着 选取 的 降 维 维 数 不 同 , Wine ee 
确 率 。 为 了 比较 不 同 的 相似 性 度量 方法 对 降 维 
欧式 距离 的 NA-SELF 算法 以 及 基于 马 氏 


效果 的 影响 ， 将 基于 
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距离 和 余弦 相似 度 相 结 合 的 NA-SELF 算法 也 进行 比较 。 从 图 5 ”识别 准确 率 均 存在 差异 ， 而 NA-SELF 算法 在 一 定 范围 内 取得 
中 可 以 看 出 ， 采 用 不 同 的 维 数 约 简 算法 和 降 维 维 数 ， 数 据 集 的 了 最 高 的 分 类 精度 。 


SELF NASELF 


LFDA 


图 4 Wine 数据 集 各 种 算法 维 数 约 简 结果 对 比 


数据 (None) 进行 分 类 的 平均 识别 准确 率 。 


攻 人 根据 测试 结果 可 知 ， 由 于 未 经 维 数 约 简 的 原始 数据 特征 集 
rt 中 含有 较 多 的 宛 余 信息 ， 因 此 大 部 分 数据 集 降 维 前 的 识别 率 低 

a 人 ee 于 降 维 后 的 识别 率 。PCA 具备 较 好 的 稳定 性 ， 但 其 属于 线性 降 

则 和 维 方法 ， 忽 略 了 样本 数据 的 非 线性 结构 ， 而 LFDA 在 有 类 别 标 
ER 签 样本 不 足 时 可 能 陷入 过 学 习 ， 因 此 PCA 和 LFDA 的 识别 准 

"| 人 确 率 几乎 都 低 于 SELF 算法 。 由 于 SELF 选取 全 局 统一 的 邻 域 

oo ee 参数 ， 所 以 SELF 的 识别 准确 率 和 稳定 性 相对 于 NA-SELF ( 欧 
二 式 距离 》 较 低 ， 而 文中 所 提 算 法 采用 的 相似 性 度量 方法 能 够 更 
人 分 反映 样本 癌 的 相似 性 ， 所 以 识别 准确 率 在 5 个 数据 集中 有 

3 个 达到 最 优 ， 且 在 所 有 数据 集 的 识别 率 平均 值 上 也 达到 了 最 

各 种 算法 在 5 个 数据 集 分 别 进行 100 次 实验 ， 平 均 识别 准 。 优 。 为 了 比较 NA-SELF 算法 与 原始 SELF 算法 的 时 间 复杂 度 ， 
确 率 如 表 3 所 示 。 平 均 识别 准确 率 为 每 次 实验 得 到 的 最 高 识别 。 表 4 列 出 了 两 种 算法 的 平均 测试 时 间 ， 以 及 改进 算法 相对 于 原 


准确 率 的 平均 值 ， 括 号 中 为 标准 差 ， 同 时 给 出 了 直接 使 用 原始 始 算法 测试 时 间 增 长 的 百分比 。 
表 3 各 算法 的 平均 识别 准确 率 (%) 


算法 Ionosphere Wine Iris Vehicle Segment 平均 值 

None 72.11 (2.36) 93.39 (3.38) 90.33 (1.44) 66.95 (2.03) 68.82 (0.89) 78.32 (2.02) 

PCA 69.72 (1.28) 92.78 (2.14) 90.02 (1.58) 61.26 (1.79) 63.60 (2.67) 75.48 (1.89) 

LFDA 74.13 (2.52) 90.83 (1.50) 77.78 (2.93) 68.88 (2.55) 69.13 (3.14) 77.16 (2.53) 

SELF 73.92 (2.03) 92.93 (2.52) 92.56 (2.45) 64.45 (3.01) 78.70 (2.96) 80.51 (2.60) 
NA-SELF 


74.81 (1.87) 90.98 (2.15) 92.96 (2.12) 66.73 (2.26) 78.76 (2.87) 81.25 (2.25) 
(欧式 距离 ) 


NA-SELF 74.72 (1.95) 95.16 (2.17) 95.55 (2.25) 66.95 (2.22) 80.75 (2.85) 82.63 (2.29) 


表 4 测试 时 间 对 比 /ms 前 后 的 时 间 复 杂 度 差异 具有 较 大 的 影响 。 因 此 ， 在 模式 识别 的 

i onoiee Wine Tis Volele: Yeement 实际 应 用 中 ， 应 充分 考虑 数据 自身 的 属性 ， 在 处 理 样本 数 和 特 
SELF 20390 198.83 19715 22848 279.47 征 维 数 相对 较 少 的 多 模 数据 时 ， 文 中 所 提 方 法 具有 很 好 的 适 ) 
NASEIF 26937 26458 24739 31831 42879 性 。 另 外 ， 在 对 识别 准确 率 要 求 较 高 而 对 计算 效率 要 求 次 之 的 


百 分 昌 32.11% 33.07% 25.48% 39.32% $53.43% 场合 ， 也 可 以 将 文中 所 提 算 法 用 于 多 模 数 据 的 维 数 约 减 。 


LUD 


4 ”结束 语 


分 析 表 4 可 知 , 由 于 改进 算法 的 时 间 复 杂 度 高 于 原始 算法 ， 
因此 测试 时 间 略 长 ， 并 且 耗 时 增长 的 百分比 随 着 测试 样本 数量 本 文 提 出 了 一 种 邻 域 自 适应 半 监 督 局 部 Fisher 判别 分 析 算 
和 特征 维 数 的 增长 而 变 大 ， 说 明 数 据 自 身 的 属性 对 于 算法 改进 ” 法 。 该 算法 采用 马 氏 距离 和 余弦 相似 度 相 结 合 的 方法 描述 样本 
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间 的 相似 性 , 并 在 构建 邻 域 时 利用 Parzen 窗 概 率 密度 估计 对 近 
邻 数 进行 自 适 应 调整 ， 有 效 避 免 了 人 为 选择 的 随意 性 ， 且 具有 


更 好 的 局 部 几 
UCI 标准 
由 型 的 PCA、LFDA 和 SELF 等 算法 ，NA-SELF 算法 可 得 到 更 


[uy 


通过 对 人 工 数据 集 和 5 个 
别 的 结果 表明 ， 相 比 于 


二 | 


结构 特征 表达 能 力 。 
数据 集 进 行 维 数 约 简 和 分 类 识 


L 


的 投影 空间 和 可 
和 余弦 相似 度 相 结合 的 相似 性 度量 方 
具备 更 高 的 有 效 性 。 然 而 在 半 监 督 降 维 算法 


区 分 度 更 高 的 低 维 特征 向 量 ， 基 于 马 氏 距离 
去 比 基 于 欧 氏 距离 的 方法 
中 ， 权 系数 值 目前 


还 是 利 ) 


交叉 验证 的 方法 获得 ， 如 何 快速 得 到 有 效 的 权 系 数 将 


是 本 文 后 续 的 研究 方向 之 一 。 
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